草庐IT

scrapy -- CrawlSpider类

全部标签

python - 我如何开始使用 python 在 web Scrapy 中编写单元测试?

classAljazeeraSpider(XMLFeedSpider):name="aljazeera"allowed_domains=["aljazeera.com"]start_urls=['http://www.aljazeera.com/',]defparse(self,response):hxs=HtmlXPathSelector(response)#ThexPathselectortitles=hxs.select('//div[contains(@class,"SkyScrapperBoxes")]/div[contains(@class,"skyscLines")]')

python - 在循环中使用 Scrapy Itemloader

我想在他们的教程中使用的Dmoz网站上使用Scrapy,但我不只是通过使用Item/Field对来阅读书籍URL(http://www.dmoz.org/Computers/Programming/Languages/Python/Books/)中的书籍,我想创建一个Itemloader,它将读入所需的值(名称、标题、描述)。这是我的items.py文件:fromscrapy.itemimportItem,Fieldfromscrapy.contrib.loaderimportItemLoaderfromscrapy.contrib.loader.processorimportIden

python - Scrapy延迟请求

每次我运行我的代码时,我的ip都会被禁止。我需要帮助将每个请求延迟10秒。我试图在代码中放置DOWNLOAD_DELAY但它没有给出任何结果。感谢您的帮助。#itemclassincludedhereclassDmozItem(scrapy.Item):#definethefieldsforyouritemherelike:link=scrapy.Field()attr=scrapy.Field()classDmozSpider(scrapy.Spider):name="dmoz"allowed_domains=["craigslist.org"]start_urls=["https:

python - 运行 Scrapy 但出现错误 : No module named _util

我已经安装了Scrapy,并在python中导入它,一切看起来都很好。但是当我尝试http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html中的示例时它会导致错误.我运行scrapycrawlswspider,然后我得到:>2018-05-1414:24:16[scrapy.utils.log]INFO:Scrapy1.5.0started(bot:tutorial)>2018-05-1414:24:16[scrapy.utils.log]INFO:Versions:lxml3.2.1.0,>libxml22.9.1,

python - 无法在 Scrapy 中定义自定义下载器中间件

我正在尝试在Scrapy中设置自定义下载器中间件类。我怀疑我错过了一些明显的东西,但我已经阅读了几次文档并且没有找到解决方案。我对本应是一项极其简单的任务感到有点沮丧,因此希望有人能够为我提供一些见解。我已将以下行添加到我的settings.py文件中。DOWNLOADER_MIDDLEWARES={'myproject.middlewares.TestDownloader':400}添加该行并运行项目后,我收到有关模块中间件不存在的错误。经过一番研究,我发现你需要在middlewares文件夹中添加一个__init__.py文件,以便Python识别它。我这样做了,现在出现以下错误:

Python Scrapy - 从 mysql 填充 start_urls

我正在尝试使用spider.py从MYSQL表中选择一个SELECT来填充start_url。当我运行“scrapyrunspiderspider.py”时,我没有得到任何输出,只是它没有错误地完成。我已经在python脚本中测试了SELECT查询,并且start_url中填充了MYSQL表中的条目。蜘蛛.pyfromscrapy.spiderimportBaseSpiderfromscrapy.selectorimportSelectorimportMySQLdbclassProductsSpider(BaseSpider):name="Products"allowed_domain

python - 使用 scrapy 抓取图像数据

我正在使用Scrapy来抓取与amazon.com上的产品相关的图像。我将如何解析图像数据?我通常使用XPath。但是,我无法找到图像的XPath(缩略图除外)。例如,这就是我解析标题的方式。title=response.xpath('//h1[@id="title"]/span/text()').extract()该项目的链接是:https://www.amazon.com/dp/B01N068GIX?psc=1 最佳答案 似乎可以从页面源代码中存在的JavaScript中提取图像。我用了js2xml将JavaScript源代码转

python - 以下链接,Scrapy 网络爬虫框架

在多次阅读Scrapy文档后,我仍然没有理解使用CrawlSpider规则和在回调方法上实现我自己的链接提取机制之间的区别。我正准备使用后一种方法编写一个新的网络爬虫,但只是因为我在过去使用规则的项目中有过糟糕的经历。我真的很想知道我在做什么以及为什么这样做。有人熟悉这个工具吗?感谢您的帮助! 最佳答案 CrawlSpider继承了BaseSpider。它只是添加了提取和跟踪链接的规则。如果这些规则对您来说不够灵活-使用BaseSpider:classUSpider(BaseSpider):"""myspider."""start_

python - 使用 Python Scrapy 遍历站点

如何使用Scrapy遍历网站?我想提取所有匹配http://www.saylor.org/site/syllabus.php?cid=NUMBER的站点的正文,其中NUMBER是1到400左右。我写了这个蜘蛛:fromscrapy.contrib.spidersimportCrawlSpider,Rulefromscrapy.contrib.linkextractors.sgmlimportSgmlLinkExtractorfromscrapy.selectorimportHtmlXPathSelectorfromsyllabi.itemsimportSyllabiItemclassS

python - Scrapy SgmlLinkExtractor 问题

我正在尝试让SgmlLinkExtractor工作。这是签名:SgmlLinkExtractor(allow=(),deny=(),allow_domains=(),deny_domains=(),restrict_xpaths(),tags=('a','area'),attrs=('href'),canonicalize=True,unique=True,process_value=None)我只是在使用allow=()所以,我输入rules=(Rule(SgmlLinkExtractor(allow=("/aadler/",)),callback='parse'),)所以,初始ur